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RA-GCN: 抑制 过 平滑 现象 的 文本 分 类 算法 
JUE, BHE, HAE 


(上 海 理工 大 学 光电 信息 与 计算 机 工程 学 院 ， 上 海 200093) 


摘 E: 现 有 大 多 数 利用 图 神经 网 络 的 算法 进行 文本 分 类 时 ， 忽 略 了 图 神经 网 络 的 过 度 平滑 问题 和 由 于 文本 图 拓扑 
差异 引入 的 误差 ， 导 致 文本 分 类 的 性 能 不 佳 。 针 对 这 一 问题 ， 提 出 了 衡量 多 个 文本 图 表示 的 平滑 度 的 方法 WACD 以 
及 抑制 过 平滑 现象 的 正则 项 RWACD。 随 后 提出 了 基于 注意 力 和 残 差 的 网 络 结构 ARS， 用 于 弥补 由 于 图 拓扑 差异 引 
起 的 文本 信息 的 损失 。 最 后 , 提出 了 图 卷 积 神经 网 络 文本 分 类 算法 RA-GCN。RA-GCN 在 图 表示 学 习 层 使 用 ARS 融 
合 文本 表示 ， 在 读 出 层 使 用 RWACD 抑制 过 平滑 现象 。 在 6 个 中 英文 数据 集 上 进行 实验 ， 实 验 结果 证 明了 RA-GCN 
的 分 类 性 能 ， 并 通过 多 个 对 比 实验 验证 了 RWACD 和 ARS 的 作用 。 

关键 词 : 文本 分 类 ; 图 卷 积 神经 网 络 ; 过 平滑 ; 注意 力 机 制 
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RA-GCN: text classification algorithm suppressing over-smoothing phenomenon 


Su Fanjun, Ma Mingxu', Tong Guoxiang 
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology Shanghai 200093, 
China) 


Abstract: Most existing text classification algorithms based on graph neural network ignore the problem of over-smoothing, 
and ignore the problem of information loss due to graph topology, resulting in poor classification performance. To solve this 
problem, this paper proposed a method to measure the smoothness of multiple text graph representations WACD and a 
regularization term RWACD to suppress over-smoothing. Subsequently, this paper proposed an attention and residual-based 
network structure ARS to compensate for the loss of textual information due to graph topology differences. Finally, this paper 
proposed a graph convolutional neural network text classification algorithm RA-GCN. RA-GCN used ARS to fuse text 
representations in the graph representation learning layer, and used RWACD in the readout layer to suppress over-smoothing. 
This paper conducted experiments on 6 Chinese and English datasets. The experimental results demonstrate the classification 
performance of RA-GCN, and the effects of RWACD and ARS are verified through multiple comparative experiments. 

Key words: text classification; graph convolutional network; over-smoothing; attention mechanism 


0 ”引言 缓解 过 度 平滑 现象 ， 提 升 文本 分 类 性 能 。 
z 在 GNN 发 展 过 程 中 ,Li03 首 次 引起 对 过 度 平滑 的 关注 03， 

文本 分 类 作为 自然 语言 处 理 领域 的 基础 问题 ， 已 被 应 用 ”证 明了 图 卷 积 是 一 种 特殊 的 拉 普 拉 斯 平滑 ， 并 且 得 出 结论 : 对 
于 许多 现实 场景 ， 例 如 垃圾 邮件 检测 ， 新 闻 分 类 ， 情 感 识别 。” ”节点 进行 平滑 操作 是 GCN 工作 的 关键 机 制 , 但 是 执行 多 次 拉 普 
等 。 文 本 分 类 模型 的 性 能 很 大 程度 上 取决 于 文本 表示 的 质量 。 立 斯 平滑 后 ， 节 点 特征 会 收敛 至 相似 值 ， 这 个 现象 被 称 为 过 度 
基于 深度 学 习 的 方法 避免 了 人 工 设计 规则 和 特征 ， 自 动 学 习 平滑 现象 , 也 被 称 为 过 平滑 , 过 平滑 会 导致 节点 之 间 无 法 区 分 ， 
语义 上 有 意义 的 表示 山 。 基 于 CNN 和 RNN 的 深度 学 习 方法 ”从 而 损害 网 络 性 能 。Chen04 验 证 了 平滑 是 GNN 的 本 质 ， 给 出 
可 以 很 好 地 捕获 局 部 连续 序列 中 的 语义 和 句法 特征 ， 但 对 非 “了 衡量 平滑 度 的 方法 MAD(Mean Average Distance)， 从 图 拓扑 
连续 词 和 长 距离 语义 信息 的 提取 仍然 存在 限制 1。 角度 分 析 了 过 度 平滑 的 原因 ， 认 为 信息 和 噪声 的 过 度 混合 是 影 

近年 来 ， 图 神经 网 络 缓解 了 上 述 现象 。Yao6] 构 建 整个 语 。 响 过 度 平滑 的 一 个 关键 因素 ， 提 出 了 抑制 过 平滑 的 正则 项 
料 库 的 单 张 文 本 -单词 异 构图 ， 使 用 GCNI9 学 习 词 共 现 信息 ， ”MADreg 和 从 代 训练 算法 AdaGraph。 同 时 有 研究 者 提出 通过 模 
更 新 文本 、 单 词 表 示 ， 进 行文 本 分 类 。Wul" 通 过 去 除非 线性 ”型 优化 人 为 构造 的 图 拓扑 , 提升 模型 性 能 , 抑制 过 度 平滑 现象 。 
激活 函数 和 折 受 连续 层 之 间 的 权重 矩阵 ,将 GCN 简化 为 SGC， ”Wangt151 通 过 多 跳 注 意 力 机 制 扩大 节点 的 感受 野 , 使 不 直接 连接 
并 且 在 基于 单 张 语料库 异 构图 的 数据 上 取得 了 不 错 的 文本 分 。 但 相聚 多 跳 的 节点 之 间 进 行 远 程 交 互 ， 过 滤 高 频 噪声 信息 
类 效果 。 但 是 ,基于 单 张 异 构图 的 方法 不 利于 测试 新 的 文本 ， Yang09 利 用 指针 网 络 0 寻找 多 阶 邻 域 中 的 相关 节点 ， 使 用 
消耗 了 大 量 的 内 存 空间 , 为 此 ,Huang 针 构建 每 个 文本 的 图 数 。” ” 卷 积 提取 高 级 特征 ， 过 滤 噪 声 信息 ， 减 轻 过 度 平滑 问题 。 在 网 
据 ， 共 享 全 局 单词 表示 和 边 的 权 值 ， 更 好 的 捕捉 局 部 特征 和 ” 络 结构 方向 , 文献 [18] 借 助残 差 、 密 集 连 接 和 扩张 卷 积 堆 靶 深层 
减少 内 存 消耗 。Zhangb 为 提高 图 方法 的 归纳 学 习 能 力 , 构建 GON, 显著 提高 了 GCN 在 点 云 语 义 分 割 任务 中 的 性 能 , 缓解 了 
每 个 文本 独特 的 图 数据 ,使 用 GGNNL9 更 新 单词 特征 ， 获 取 ”过 平滑 现象 。 在 数据 方向 ，RongD9? 在 每 个 训练 期 间 随 机 丢弃 图 
文本 表示 及 类 别 。 但 是 ， 上 述 方法 忽略 了 图 神经 网 络 的 过 度 。 ”中 一 定 比 例 的 边 ， 以 充当 数据 增强 器 和 消息 传递 减速 器 ， 降 
平滑 问题 ,本文 关注 基于 每 个 文本 图 表示 的 图 分 类 ”1 方向 ，” 低 过 平滑 的 收敛 速度 。 
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根据 文献 [12,14] 及 本 文 的 实验 现象 , 可 以 发 现 使 用 GCN 
进行 文本 图 表示 学 习 时 ， 平 滑 使 得 单词 特征 收敛 至 相似 值 ， 
单词 表示 不 可 避免 地 变 得 相似 ， 损 害 了 文本 分 类 的 性 能 。 为 
此 ， 本 文 针 对 文本 分 类 问题 ， 为 了 更 好 的 衡量 及 分 析 单 词 节 
点 的 平滑 度 ， 提 出 了 衡量 多 个 文本 图 表示 的 平滑 度 的 方法 加 
权 平 均 余弦 距离 WACD(Weighted Average Cosine Distance)» 
WACD 与 MAD04 不 同 ，MAD 适用 于 单 张 图 ，WACD 则 作 
用 于 多 个 图 ， 更 适用 于 本 文 关 注 的 图 分 类 方向 。 本 文 借鉴 节 
点 分 类 中 抑制 过 平滑 的 方法 ,在 WACD 的 基础 上 提出 了 抑制 
过 平滑 的 正则 项 RWACD(Regularization based on Weighted 
Average Cosine Distance). 随后 提出 了 基于 注意 力 和 残 差 的 网 
络 结构 ARS(Attention-based Residual Network Structure), Y 
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通过 计算 Di" 中 非 零 值 的 平均 值 ， 得 到 给 定 目标 节点 的 
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补 由 于 图 拓扑 差异 引起 的 文本 信息 损失 。 与 [14~16] 不 同 ， 
ARS 无 须 迭 代 训 练 和 寻找 重要 相关 节点 , 仅 使 用 注意 力 机 制 
和 残 差 结构 ， 加 快 训练 速度 。 最 后 ， 提 出 了 图 卷 积 神经 网 络 
文本 分 类 算法 RA-GCN(RWACD-ARS based Graph Convolu- 
tional Neural Network Text Classification Algorithm) 。 算 法 RA- 
GCN 在 图 表示 学 习 层 使 用 ARS 融合 文本 表示 ， 在 读 出 层 使 


文献 [14] 观 察 到 在 利用 真实 标签 优化 图 拓扑 时 ， 组 解 DS 
平滑 现象 ， 提 升 了 节点 分 类 的 性 能 ， 因 此 提出 了 优化 图 拓扑 
练 算 法 AdaGraph。 首 先 训练 GNN， 然 后 根据 预测 结 


用 RWACD 抑制 过 平滑 现象 。 实 验 在 6 个 中 英文 数据 集 上 进 
行 ， 实 验 结果 证 明了 RA-GCN 的 性 能 ， 并 通过 多 个 对 比 实验 验 
证 了 RWACD 和 ARS 的 作用 。 总 体 来 说 ， 本 文 有 以 下 创新 点 : 
a) 提出 了 衡量 多 个 文本 图 表示 的 平滑 度 的 方法 WACD， 
并 提出 了 抑制 过 平滑 现象 的 正则 项 RWACD。 
b) 提出 了 基于 注意 力 机 制 和 残 差 的 网 络 结构 ARS ,弥补 


PA 


添加 类 内 边 优化 图 拓扑 ， 多 次 执行 该 过 程 后 ， 


状 [14] 观 察 到 在 节点 分 类 中 ， 拓 扑 距离 小 的 两 个 节点 
别 ， 因 此 提出 了 利用 图 拓扑 来 近似 节点 
并 计算 远程 和 邻居 节点 的 MAD 差 值 来 估计 图 表示 的 
二 平滑 度 MADGap， 计 算 为 

MADGap = MAD™ - MAD (6) 
扑 中 远程 节点 的 MAD fi, MAD"% 是 
quei EB MAD fH. 1 
E 则 项 MADreg， 计 算 为 

MADreg =—A4x MADGap (7) 


等 MADGap 引入 系数 4 后 得 到 抑制 过 


HG 


中 了 过 平滑 现象 , 提升 了 节点 分 类 的 性 能 。 
本 文 研究 的 算法 


~ MADreg 与 AdaGraph 适用 于 基于 单 张 图 表示 学 


于 图 拓扑 差异 引起 的 文本 信息 损失 , 同时 抑制 过 平滑 现象 。 


c) 提出 了 基于 RWACD 和 ARS 的 图 卷 积 神经 网 络 文本 
分 类 算法 RA-GCN, dE 6 个 中 英文 数据 集 上 的 实验 结果 证 明 
了 RA-GCN 的 性 能 。 

d) 多 方面 进行 对 比 实验 ， 验 证 了 RWACD 和 ARS 均 能 
抑制 过 平滑 现象 和 提升 模型 性 能 ， 证 明了 从 图 拓扑 角度 弥补 


本 文 关 注 的 是 基于 多 个 文本 图 表示 的 图 分 类 
光 献 [1 和 并 不 能 直接 用 于 本 文 关 注 的 方向 ， 并 且 
需要 寻找 最 优 阶 数 计算 MADGap，AdaGraph 需要 
拓扑 ， 增 加 了 训练 时 间 ， 与 本 文 关注 的 方向 


文本 信息 损失 决策 的 正确 ; 分 析 并 探讨 了 在 本 文 关注 的 基于 
每 个 文本 图 表示 的 图 分 类 方向 中 的 过 平滑 现象 。 


1 ”相关 研究 


本 文 所 提 算 法 针对 于 文本 图 分 类 中 的 过 平滑 问题 ， 是 对 
文献 [1 和 算法 的 改进 和 完善 ， 因 此 本 节 重 点 介绍 文献 [14]。 文 
献 [1 和 主要 针对 节点 分 类 领域 的 过 平滑 现象 ， 提 出 了 衡量 图 
表示 的 平滑 度 的 方法 MAD， 抑 制 过 平滑 的 正则 项 MADreg 
和 和 迭代 训练 算法 AdaGraph. 
1.1 MAD 5 MADreg 

MAD 是 基于 余弦 距离 衡量 图 表示 的 平滑 度 的 方法 。 给 
定 图 表示 和 矩阵 HeR™% ， 其 中 为 节点 数 ，4d 为 特征 维度 。 通 
过 余弦 距离 计算 距离 矩阵 D ， 每 个 节点 对 之 间 的 距离 计算 为 
1- H,..H,. 

KAREA 
其 中 HARK H 的 第 i 行 。 使 用 余弦 距离 的 原 
离 不 受 节点 向 量 绝 对 值 的 影响 ， 从 而 更 好 地 反映 了 氏 
SE in 性 64 


H 
为 了 得 到 目标 节点 对 之 间 的 余弦 距离 ， 构 造 目标 掩 码 矩 


ik 一 


i,k €[L2,...,n] (1) 
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阵 Mw ， 得 到 目标 节点 对 的 距离 矩阵 ， 计 算 为 
D" 2DoM'* (2) 
其 中 ，。 表 示 逐 元 素 乘法 ，M* e{0.1yw， 当 (1D 是 目标 节点 对 
时 ，MW& =1。 人 然后 计算 每 行 非 零 值 的 乎 均值 ; 
pes G) 
tgt 
Y ao 
1 x»0 


为 此 ， 提 出 了 衡量 多 个 文本 图 表示 的 平滑 度 的 方法 加 权 
平均 余弦 距离 WACD 及 抑制 过 平滑 的 正则 项 RWACD。 提出 
了 基于 注意 力 和 残 差 的 网 络 结构 ARS, 弥补 由 于 文本 图 拓扑 
差异 引起 的 信息 损失 ， 
妈 卷 积 神 经 网 络 文本 分 类 算法 RA-GCN。 
WACD 与 RWACD 
WACD 衡量 多 个 文本 图 的 平滑 度 ， 值 越 高 表示 平滑 度 越 
， 过 氏 ， 反 之 平滑 度 越 高 ， 过 平滑 概率 越 大 。 

首先 , 对 于 单个 文本 图 表示 Hi eR” , Hp m 为 单词 节点 
住 度 。 将 所 有 单词 对 视 为 目标 节点 ， 利 用 式 


司 时 抑制 过 平滑 现象 。 最 后 ， 提 出 了 


(1)~ 式 (5) 计 算 文 本 区 


的 平均 余弦 距离 ACD(Average Cosine 


每 个 文本 的 长 度 计算 ACD 的 加 权 系 数 4， 以 


H, b 表示 文本 数 


更 好 的 估计 多 个 文本 图 表示 的 平滑 度 WACD， 计 算 过 程 为 


zu d i 
1--WI 
23) (8) 
l; 
Hc (9) 
1 b 
WACD-— 5 gi x ACD, (10) 


TE. “为 第 :个 文本 的 长 度 。 正 则 项 


RWACD =1- WACD (11) 


kETOCASJAEBEIWBOE3S ACD 得 到 WACD， 更 好 的 衡量 
妈 的 平滑 程度 ，RWACD 通过 降低 文本 图 表示 的 平 
二 平滑 的 概率 。 与 MADregU^JHEG, RWACD 无 需 


于 本 文 关注 的 文本 图 分 类 方向 。 


参考 节点 分 类 领域 对 图 拓扑 方向 的 探讨 m1， 本 文 认为 
加 拓扑 与 潜在 真实 文本 拓扑 存在 偏差 ， 造 成 


的 文本 信息 损失 。 因 此 本 文 提 出 ， 对 于 每 个 
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网 络 层 , 利用 注意 力 机 制 和 残 差 的 网 络 结构 ARS REER GCN 学 习 单 词 共 现 信息 , 获取 文本 图 表示 ; ARS 使 用 注意 力 
象 ， 同 时 抑制 过 平滑 问题 。 与 [14~16] 不 同 的 是 ，ARS 75205 机制 和 残 差 结 构 得 到 当前 图 表示 学 习 层 的 文本 表示 输出 。 


代 训 练 和 寻找 重要 相关 节点 ， 仅 使 用 注意 力 和 残 差 ， 加 快 训练 1) GCN ”对 于 第 +1 层 的 文本 图 表示 ， 计 算 为 

速度 , 更 适合 本 文 关 注 的 方向 。ARS 将 在 2.3.2 节 中 详细 介绍 。 Hii! =p(AHW™) (12) 
2.8 RA-GCN 其 中 ， men NRI EHIOCAEXéH. H'-x, w JNa 

如 图 1 所 示 为 RA-GCN 算法 的 框架 图 ,为 了 使 框架 更 加 学习 的 参数 矩阵 ， 2 为 Leaky_relu 激活 函数 。 

清晰 ， 部 分 框架 使 用 了 红 、 蓝 、 绿 三 种 颜色 突出 计算 流程 ， 2) ARS 首先 对 前 1+1 层 的 所 有 文本 表示 输出 与 当前 层 
其 中 红色 表示 GCN 的 前 向 计算 流程 ， 蓝 色 表 示 ARS 的 前 向 ” 的 文本 图 表示 分 配 注意 力 分 数 ， 计 算 为 

计算 流程 ， 绿 色 表示 RWACD 的 前 向 计算 流程 。 总 的 来 说 ， His SET HS LH ERI] (13) 
RA-GCN 可 分 为 三 个 部 分 ， 分 别 为 文本 处 理 层 、 图 表示 学 习 Hll, = Mean( Hl ) (14) 
层 和 读 出 层 。 文 本 处 理 层 主要 对 文本 进行 处 理 ， 转 换 为 图 表 I" =o(WH, +b) (15) 
示 学 习 层 的 输入 。 图 表示 学 习 层 学 习 文本 表示 , 主要 由 GCN 其 中 ， HoLeRUme. Hi, e RODA 为 不 同 维度 的 文本 表示 ， 
和 ARS 两 部 分 构成 ，GCN 学 习 图 级 别 的 文本 表示 ，ARS 弥 D" =A, A,A Aj] 为 各 文本 表示 的 注意 力 分 数 ，W 与 5b 为 可 


补 由 于 文本 图 拓扑 差异 引入 的 信息 损失 。 读 出 层 获取 文本 类 学 习 的 参数 矩阵 ， ca J sigmoid 函数 。 
别 ， 使 用 交叉 粒 函 数 计算 损失 ， 使 用 RWACD 抑制 过 平滑 。 随后 ， 使 用 注意 力 分 数 和 残 差 结 构 得 到 当前 层 的 文本 表 
下 面 详细 介绍 算法 的 各 个 部 分 以 及 流程 。 zw ue, iS 

[Ere urwa ja E2388 T 文本 分 类 结果 :元 HUCAH'VAB LH + AnH gen (16) 


A 


2.3.3 读 出 层 
如 图 1 所 示 ， 读 出 层 利 用 注意 力 机 制 聚合 单词 特征 ， 得 
到 最 终 文本 表示 ， 并 预测 文本 类 别 。 最 终 文本 表示 ho 计算 为 
h, =0o(h W, +b,) Ov(hP?W, +b,) (17) 
hg = m2 + Maxpooling(/,.... A) (18) 
其 中 ，o 为 sigmoid K, 6O 表示 对 单词 分 配 重要 性 系数 ， 
V 为 tanh KZO vO 表示 对 单词 特征 进一步 转换 ，W 与 2 为 
可 学 习 的 参数 矩阵 。 除 此 之 外 ， 为 了 发 挥 每 个 词 和 重要 词 的 
作用 ， 提 取 平 均 特 征 和 重要 特征 ， 得 到 最 终 文本 表示 hc 。 
最 后 ， 使 用 softmax 函数 预测 文本 类 别 ， 目 标 函 数 为 交叉 
烂 损失 函数 ， 并 使 用 正则 项 RWACD， 计 算 过 程 为 
Y; = softmax(W,ho +b,) (1 9) 
L-—Y yc logc) - ExRWACD (20) 
其 中 ， 丈 为 预测 的 文本 类 别 ， 册 与 为 可 学 习 的 参数 征 阵 ， 
yc 为 真实 的 文本 类 别 ，< 上 为 RWACD 的 系数 。 


3 ”实验 部 分 
x i 3.1 实验 环境 


HE EHEERE HERE 文本 算法 的 实验 环境 如 表 1 所 示 。 
N 7 / 


PERITI 


对 位 相 乘 


对 于 每 一 个 文本 输入 


构造 单词 特征 算 了 会 归 一 化 表 1 实验 环境 
H N / N Tab. 1 Experimental environment 
PEST To Lo ^ 实验 环境 。 环境 配置 实验 环境 ARR 
E t t t t 操作 系统 Ubuntu 20.04.3 编程 语言 Python 3.7.11 
IE ET [] T [] "E [] 显卡 Nvidia GTX 20608 | 开发 工具 Pycharm 
~、 E» CUDA 版 本 11.4 深度 学 习 框 架 Tensorflow 2.4.1 
U -— 3.2 数据 集 
图 1 RA-GCN 算法 的 框架 本 文 考虑 使 用 以 下 6 个 数据 集 测试 RA-GCN 的 性 能 ， 表 2 
Fig. 1 The framework of the RA-GCN algorithm 展示 了 数据 集 的 统计 数据 ， 其 中 * 表 示 该 数据 集 未 给 出 验证 集 。 
2.3.1 文本 处 理 层 表 2 数据 集 信息 
如 图 1 所 示 ， 对 于 文本 了 ={ww wj ， 交 为 单词 ， 文 本 Tab 2 Dataset information 
图 数据 表示 为 G=(V,E,X) ，VY=wm ol 为 唯一 出 现 的 单词 节 数据 集 训练 验证 测试 集 ” ”类别 FAKE 
点 集 ，IVEFm 为 单词 个 数 ，m<n ，E 为 边 集 ，X 为 初始 单词 MR* 7108 - 3554 2 18.46 
特征 矩阵 。 使 用 滑动 窗口 构建 单词 节点 集 Y 和 边 集 E ， 边 集 Tnews 53360 10000 5000 15 12.01 
E 通过 邻接 和 矩阵 A 展现 ，4=[axleR” ， 其 中 ax=1 表 示 单 词 Ohsumed* 3357 : 4043 23 79.49 
节点 vw 和 v% 相连 ，0 RRE. EIERE 4 的 度 矩 阵 R8* 5485 s 2189 8 41.25 
D, -diag(d, d,,....d,) ， 其 中 d; ET A vi BRE. VIRIS ERE SST-5 8544 1101 2210 5 17.75 
BEE XL7g A- D^ AD; 。 初 始 单词 特征 矩阵 XesR"” 使 用 预 i SST-2 6919 871 1820 2 17.75 
练 词 嵌入 构建 ， 其 中 a 是 词 谍 入 维度 。 a) MR 数据 集 。 含 有 正 负面 极 性 的 2 分 类 英文 情感 数据 集 。 
2.3.2 图 表示 学 习 层 b) TnewsP20 数 据 集 。15 个 类 别 的 中 文 新 闻 分 类 数据 集 。 
如 图 1 所 示 , 图 表示 学 习 层 分 为 GCN 和 ARS 两 个 部 分 ， c) Ohsumed 数据 集 。23 个 类 别 的 英文 心血 管 疾病 医学 摘 
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要 分 类 数据 集 。 用 于 部 分 实验 结果 的 可 视 化 和 分 析 ， 样 本 描述 如 表 4 所 示 。 
d) R8 数据 集 。8 个 类 别 的 路 透 社 英文 新 闻 分 类 数据 集 。 表 4 样本 描述 
e) SST-2、SST-5 数据 集 。 分 别 为 2 分 类 、5 分 类 英文 情 Tab.4 Sample description 
感 分 类 数据 集 。 序号 样本 (0/1 类 ) 
3.3 基线 1 a magnificent drama well worth tracking down(1 类 ) 
于 文献 [14] 的 方法 适用 于 节点 分 类 ， 与 本 文 关 注 的 文 2 an awkwardly contrived exercise in magic realism(0 类 ) 
本 图 分 类 方向 不 符合 ,因此 本 文 仅 考虑 与 以 下 基线 进行 比较 : i'll put it this way if you're in the mood for a melodrama narrated 
a) 传统 的 深度 学 习 文 本 分 类 方法 。 包 括 TextCNNPRI by talking fish, this is the movie for you(1 类 ) 
TextRNNPU?I, j children and adults enamored of all things pokemon won't be 
b) 基于 单 张 文本 -单词 异 构 图 的 文本 分 类 方法 。 包 括 disappointed(0 类 ) 
TextGCND 和 TextSGCI1。 构造 分 别 含有 RWACD 或 ARS 的 模型 RW-GCN、RW- 
c) 基于 每 个 文本 图 表示 的 图 分 类 方法 。 包 括 Huang SGC, ARS-GCN, ARS-SGC, FERAH RWACD 和 ARS 
RA-GCN， 不 含 RWACD 和 ARS 的 P-GCN，P-SGC。 的 模型 P-GCN、P-SGC、RA-GCN、RA-SGC。 观察 各 模型 在 
34 ”参数 设置 MR 和 SST-5 数据 集 上 的 性 能 表现 , 探讨 RWACD 和 ARS 对 
对 于 未 给 验证 集 的 数据 集 ， 将 训练 集 随机 分 成 9:1 的 比 模型 性 能 的 影响 和 在 样本 上 的 表现 。 最 后 分 析 了 本 文 关注 的 


例 用 于 实际 训练 和 验证 。 对 于 初始 单词 特征 ， 英 文 使 用 200 文本 图 分 类 方向 的 过 平滑 现象 。 为 了 更 好 的 区 分 各 模型 的 表 


维 的 预 训练 GloVeP3] 词 向 量 ， 中 文采 用 文献 [24] 中 通过 搜狗 — 现 ， 使 用 不 同 符号 表示 不 同 模型 ， 模 型 说 明 如 表 5 所 示 。 
新 闻 训 练 的 300 维 词 向 量 。 词 汇 外 (Outof Vocabulary, OOV) 表 5 模型 说 明 
单词 从 均匀 分 布 [-0.01, 0.01] 中 随机 采样 得 到 。 算 法 使 用 Tab. 5 Model description 
Adam025 优 化 器 ， 学 习 率 设置 为 0.001， 其 余 参 数 根据 不 同 数 "-— ^u BH 
据 集 调整 。 模 型 性 能 使 用 准确 度 (Accuracy) 进 行 衡量 。 iei WU fF TRWACD ARS 
3.5 实验 结果 P-GCN、P-SGC P- 模 型 E f f 
d 3 为 各 模型 在 6 个 数据 集 上 的 准确 度 表 现 ， 实 验 结果 RW-GCN、RW-SGC RW- 模 型 ” A 是 d 
为 各 模型 训练 5 次 的 平均 值 。 可 以 看 出 ，RA-GCN 均 取 得 了 ARS-GCN、ARS-SGC ARS- 模 型 ”多 E 是 
最 好 的 结果 。 RA-GCN、RA-SGC RA- 模 型 v 是 是 
表 3 实验 结果 3.6.1 RWACD 与 ARS 的 作用 
Tab.3 Experimental results 1) RWACD, ARS 对 模型 分 类 性 能 的 影响 
模型 MR  Ohsumed R8 SST5 SST2 Tnews 表 6 为 8 个 模型 在 MR、SST-5 测试 集 上 的 文本 分 类 准 
TextCNN 0.7775 0.5844 0.9571 0.423 0.8049 0.5602 确 度 表现 ， 实 验 结果 为 训练 3 次 的 平均 值 。 
TextRNN 0.7768 0.4927 0.9631 0.4263 0.8038 0.5518 表 6 对 比 实验 结果 
TextGCN — 0.7674 0.6836 0.9707 0.4063 0.8102 - Tab. 6 Comparative experimental results 
TextSGC 0.759 0.685 0.972 5 = 模型 MR SST-5 
Huang - 0.604 0.978 : - - P-GCN 0.784 0.4376 
P-GCN 0.7853 0.684 0.9757 0.4376 0.8313 0.5684 P-SGC 0.7803 0.438 
P-SGC 0.783 0.6852 0.9689 0.4384 0.8264 0.5672 RW-GCN 0.7873 0.4429 
RA-GCN 0.796 0.695 0.978 0.462 0.8451 0.5724 RW-SGC 0.7847 0.4434 
对 比 传统 方法 ，CNN 和 RNN 在 大 部 分 数据 集 上 的 性 能 ARS-GCN 0.7943 0.4585 
均 不 如 基于 图 的 方法 ， 证 明了 图 模型 有 利于 文本 分 类 。 对 比 ARS-SGC 0.7926 0.4578 
基于 每 个 文本 图 分 类 的 模型 Huang、P-GCN、P-SGC、RA-GCN RA-GCN 0.7955 0.4623 
和 基于 单 张 异 构图 分 类 的 模型 TextGCN、TextSGC， 前 者 在 RA-SGC 0.794 0.4586 
大 多 数 情况 下 均 优 于 后 者 , 特别 是 在 MR、SST-2 等 短文 本 数 从 文本 图 构造 方式 的 角度 看 ， 基 于 GCN 和 SGC 提出 的 
据 集 上 , 验证 了 基于 每 个 文本 图 表示 的 图 分 类 方法 的 有 效 性 。 8 个 模型 分 类 性 能 均 优 于 TextGCN 和 TextSGC 模型 , 这 突出 


在 6 个 数据 集 上 的 结果 证 明了 所 提 文 本 分 类 算法 RA- 了 基于 文本 图 数据 的 文本 图 分 类 方法 的 优点 。 从 是 否 含 
GCN 的 性 能 。 RA-GCN 在 MR, SST-2, SST-5 和 Tnews 短文 ”RWACD 和 ARS 的 角度 看 ， 在 MR 和 SST-5 的 实验 结果 中 ， 
本 数据 集 上 提升 较 大 ， 在 长 文本 数据 集 上 提升 较 小 。 因 为 构 。 不 含 RWACD 和 ARS 的 了 -模型 分 类 性 能 最 差 , 含有 RWACD 
造 的 实际 文本 图 拓扑 并 非 真实 潜在 的 文本 拓扑 结构 ， 然 而 的 RW- 模 型 较 P- 模 型 有 略微 提升 , 证 明了 RWACD 能 够 提升 
于 短文 本 的 图 规模 较 小 , 在 GCN 消息 传递 机 制 的 作用 下 , 单 模型 分 类 性 能 。 含 有 ARS 的 ARS- 模 型 性 能 在 MR 和 SST-5 
词 信 息 传 播 广泛 且 迅 速 , RWACD 和 ARS 能 够 抑制 过 度 平滑 ”数据 集 上 表现 优异 ,取得 了 比 P- 模 型 和 RW- 模 型 更 突出 的 分 
现象 和 弥补 由 于 图 拓扑 差异 引起 的 文本 信息 损失 ， 所 以 RA- ”类 性 能 ， 这 凸显 了 从 图 拓扑 角度 优化 模型 性 能 决策 的 正确 。 

GCN 能 学 习 到 更 准确 的 文本 表示 。 但 是 长 文本 的 图 规模 较 大 ， 含有 ARS 和 RWACD 的 RA- 模 型 分 类 性 能 最 优 ， 在 MR 和 
拓扑 差异 导致 信息 的 传播 速度 不 像 小 规模 图 一 样 流畅 ， 造 成 SST5 上 取得 了 最 好 的 分 类 效果 ， 这 证 明了 RWACD 和 ARS 
了 模型 学 习 不 到 准确 的 文本 表示 , RWACD 及 ARS 发 挥 的 作 ”能 够 同时 提升 模型 的 分 类 性 能 。 


用 较 小 , 因此 RA-GCN 在 长 文本 数据 集 上 的 文本 分 类 性 能 提 2) RWACD、ARS 对 不 同 层 数 模型 性 能 的 影响 

升 不 显著 。 2 为 各 模型 在 MR 测试 集 上 的 准确 度 和 WACD 随 层 

3.6 ”对 比 实验 及 过 平滑 现象 分 析 数 的 变化 曲线 。 可 以 看 出 ，P- 模 型 在 分 类 性 能 和 WACD 上 的 
本 小 节 以 GCN、SGC 为 基础 ,验证 RWACD、ARS 对 提升 ë 表现 均 取 得 最 差 ; 在 图 2 中 , 随 着 层 数 增 加 , P- 模 型 的 WACD 


N 


模型 性 能 和 抑制 过 平滑 现象 的 作用 ， 分 析 过 平滑 现象 。 实 验 均 ”逐渐 下 降 ， 分 类 性 能 先 增加 后 持续 下 降 ， 说 明 一 定 程度 的 3 
TE MR, SST-5 数据 上 进行 , 并 抽取 了 4 条 MR 测试 集中 的 样本 滑 可 以 提升 模型 性 能 ， 但 是 执行 多 次 平滑 后 ， 会 对 模型 性 
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带 来 影响 。 对 比 P- 模 型 


提升 ， 说 明 RWAC 


提升 明显 ， 说 明 从 


D 能 够 降低 图 数据 


性 能 。ARS- 模 型 的 分 类 性 能 和 WACD 较 P- 模 型 和 RW- 模 型 


，RW- 模 型 的 分 类 性 能 和 WACD 略微 
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了 ARS 能 够 弥补 由 于 图 拓扑 差异 带 来 的 文本 信息 的 损失 , 这 


的 过 度 平滑 ， 提 升 模型 再 


次 验证 了 从 图 拓扑 角度 出 发 优化 模型 性 能 决策 的 正确 。 


单 从 ARS-GCN 


线 可 以 看 出 ,删除 比例 在 超过 20% 后 ， 


iS 


FEE 78 tk fE AU d 5 
WACD 取得 最 佳 ， 
分 类 性 能 和 抑制 过 


平滑 现象 。 


图 拓扑 角度 弥补 文本 信息 损失 能 够 显著 提 
出 过 平滑 现象 。RA- 模 型 的 分 类 性 能 和 ”他 节点 无 边 连 接 的 孤立 节点 ， 这 种 节点 与 其 他 节点 无 信息 交 
互 ， 造 成 了 图 模型 捕捉 不 到 词 共 现 信息 ， 学 习 不 到 准确 的 文 
模型 性 能 急剧 下 降 ; 


这 说 明 RWACD 和 ARS 能 同时 提升 模型 


本 表示 ， 因 此 造成 了 
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模型 性 能 急剧 下 降 ， 这 是 因为 高 的 


删除 比例 下 ， 孤 立 节点 的 产生 概率 小 ， 但 是 依旧 对 模型 性 能 
产生 了 影响 , 然而 ARS 弥补 了 由 于 图 拓扑 差异 带 来 的 文本 信 
模型 性 能 依旧 可 以 到 达 或 接近 在 原始 数据 下 ARS- 


HERE PRP E 


db 


然而 在 0%-20% 的 


为 了 更 清晰 的 观察 ARS 的 表现 ， 本 小 节 探 讨 了 两 个 
模型 在 表 4 样本 上 的 分 类 表现 。ARS-GCN 的 数据 删除 比 


N, BIJI 30%, P-GCN 不 设置 删除 比例 ， 分 类 结果 如 表 7 所 
N 示 ， 其 中 表示 预测 正确 ，X 表 示 预 测 错误 ， 结 果 为 模型 
L 训练 3 次 的 平均 值 。 
表 7 4 个 样本 的 模型 预测 结果 


(a) 准确 度 随 模型 层 数 的 变化 曲线 ( 实 线 -GCN 虚线 -SGC) 
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(b) WACD 随 模型 层 数 的 变化 曲线 ( 实 线 -GCN 虚线 -SGC) 


图 2 性 能 随 层 数 的 变化 


Fig.2 Accuracy and WACD changes with the number of layers 


3) ARS 的 作用 分 析 
在 上 述 两 个 实验 中 ，ARS- 模 型 性 能 表现 突出 ， 这 是 


到 为 


ARS 从 图 拓扑 角度 出 发 ， 弥 补 了 由 于 图 拓扑 差异 带 来 的 
HEIR. 为 了 更 深 一 步 证 明 ARS 的 作用 , 本 小 节 设 计 
对 ARS 的 对 比 实验 , 探讨 在 破损 的 文本 图 数据 上 ,模型 
能 达到 或 接近 在 未 破损 图 数据 下 模型 的 性 能 。 

为 了 突出 ARS 的 作用 ， 以 2 JE P-GCN. ARS-GCN 
线 ， 去 除 读 出 层 的 注意 力 机 制 ， 随 机 删除 文本 图 的 边 以 
图 拓扑 ， 并 逐渐 提高 删除 比例 。 与 文献 [19] 不 同 , 对 包括 
集 的 所 有 文本 执行 上 述 操作 ， 并 在 训练 过 程 中 保持 拓 寺 
不 变 。 为 了 突出 实验 结果 ，P-GCN 实验 的 删除 比例 最 
20%，ARS-GCN 为 50%， 两 个 模型 在 MR 测试 集 上 的 
结果 如 图 3 所 示 。 
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不 同 删 除 比例 下 的 模型 性 能 
Fig.3 Model performance with different deletion ratios 


从 图 中 看 出 , 在 未 破损 的 文本 图 数据 上 , ARS-GCN 
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El 
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结构 
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实验 


模型 


性 能 明显 优 于 P-GCN, 说 明 人 为 构造 的 文本 图 拓扑 与 真 
在 的 文本 图 拓扑 存在 偏差 , 这 验证 了 2.2 节 中 ARS 提出 
应 。 随 着 删除 比例 的 提高 ， 不 含 ARS 的 P-GCN 模型 的 
急剧 下 降 , 然而 对 于 ARS-GCN 模型 ,尽管 删除 比例 到 达 
左右 , 模型 性 能 依旧 能 抵达 或 超越 P-GCN 模型 的 性 能 ， 


K 
的 初 
性 能 
3096 
说 明 


Tab.7 Model prediction results for 4 samples 


0/1 类 预测 概率 (是 否 预测 正确 ) 


IPIE P-GCN( 原 始 数据 ) ARS-GCN( 删 除 比例 3096) 
D ï 0.000/1.000( v ) 0.022/0.978( 4 ) 
2 0 0.996/0.004( v ) 0.973/0.027( 4) 
3- 3 0.239/0.761( v ) 0.384/0.616( 4) 
4 0 0.358/0.642( X) 0.810/0.190( v) 
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本 信 


条 件 


从 表 7 中 看 出 ，ARS-GCN 对 前 3 条 样本 的 类 别 概率 预 
果 接 近 未 设置 删除 比例 的 P-GCN 结果 ; 然而 在 第 4 条 
上 ，ARS-GCN 预测 正确 ，P-GCN 预测 错误 ，ARS-GCN 
测 结果 要 优 于 P-GCN。 这 说 明了 在 ARS 的 作用 下 ， 删 
例 在 30% 条 件 下 的 ARS-GCN 的 性 能 表现 接近 甚至 超越 
始 数据 下 P-GCN 的 性 能 , 这 从 真实 样本 角度 验证 了 图 3 
实验 结果 。 


综 上 所 述 ， 人 为 构造 的 文本 图 拓扑 与 潜在 文本 真实 图 拓 


AR 


间 存 在 差异 ,ARS 结构 能 够 弥补 由 于 这 种 差异 带 来 的 文 

息 的 损失 ， 提 升 模型 性 能 。 

4) 案例 分 析 

在 表 4 样 本 的 基础 上 ,本 小 节 在 2 层 P-GCN 和 RA-GCN 

To 可视化 了 第 1、2 条 样本 内 单词 与 其 他 单词 的 平均 距 
4); 可 视 化 了 第 1、2 条 样本 ACD 值 随 层 数 的 变化 


线 (图 5); HJ 


视 化 了 不 同 层 数 的 P-GCN 和 RA-GCN 对 第 3、 


4 条 样本 的 预测 结果 ( 表 8)， 其 中 V 表示 模型 预测 正确 ，xX 表 


示 预 测 错误 。 
表 8 第 3 和 第 4 条 样本 的 模型 预测 结果 
Tab.8 Model predictions for sample 3 and sample 4 
"TS 不 同 层 数 模型 的 预测 结果 

模型 (样本 ) i > à F : 
P-GCN(Sanple3) v 4 x x 4 
ARS-GCN(Sanple3) v E 4 4 a 
P-GCN(Sanple4) V x v v x 
ARS-GCN(Sanple4) ~ NI a 4 Ki 


距离 
0.12 
本 的 


从 图 4 中 看 出 ，RA-GCN 模型 显著 提升 了 单词 间 的 平均 
， 例 如 单词 worth 与 其 他 单词 的 平均 距离 从 P-GCN 的 
上 升 为 RA-GCN 的 0.61。 在 图 5 中 了 P-GCN 结果 中 ， 样 
ACD 值 在 第 三 层 接近 于 0， 单 词 之 间 变 的 相似 ,符合 


献 [12] 中 所 描述 的 过 平滑 现象 ， 然 而 在 RA-GCN 的 结果 中 ， 


样本 
滑 现 


RA-GCN 全 部 预测 正确 ， 说 明 RWACD 和 ARS 提升 了 模型 


对 样 


的 ACD 值 提升 明显 ， 说 明 RWACD 和 ARS 抑制 了 过 平 
Bo TER 8 样本 3、4 的 结果 中 , P-GCN 预测 正确 3 次 ， 


本 的 分 类 性 能 。 


202204.00086v1 


3.62 过 平滑 现象 分 析 
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Fig.4 Average distance of words from other words words 
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图 5 样本 ACD 值 的 变化 曲线 图 
Fig.5 The change curve of the sample ACD value 


从 3.6.1 节 案 例 分 析 中 的 图 5 观察 到 ，3 层 的 P-GCN 就 
使 样本 的 ACD 趋 近 于 0， 两 个 样本 均 出 现 了 文献 [12] 描 


述 的 过 平滑 现象 ， 并且 在 图 2 PIRS, MERAS, 
P- 模 型 的 WACD 逐渐 下 降 , 分 类 性 能 先 上 升 后 持续 下 降 ， 说 


明 一 定 程度 的 平滑 有 利于 提升 文本 分 类 性 能 ， 但 执行 多 次 平 
滑 后 会 损害 模型 分 类 性 能 。 为 此 ， 本 文 假设 ， 本 文 所 关注 
于 每 个 文本 图 表示 的 文本 图 分 类 领域 ， 随 着 网 络 层 数 的 


chinaXiv 


EE Bi 


SST-5 测试 集中 文本 图 ACD JF AE BS [ESTE H Sc A Rc Id 
层 数 的 变化 。 实 验 结果 如 图 6 所 示 ， 为 了 突出 部 分 模型 的 
FE 能 ， 模 型 之 间 的 阐 值 取 值 不 同 ， 阐 值 取 值 已 在 图 中 标注 ， 
其 中 (a)(b) 图 为 GCN、SGC 在 MR 测试 集 上 的 结果 ，(c)(d) 
为 在 GCN、SGC 在 SST-5 测试 集 上 的 结果 。 


st 


0.3 的 文本 数 随 网 络 层 数 的 上 升 逐 渐 增 多 ，WACD 随 层 数 的 
上 升 逐渐 下 降 ， 分 类 性 能 先 上 升 后 下 降 ， 结 合 图 4、 图 5 中 
P-GCN 的 可 视 化 结果 ， VUE]: 本 文 所 关注 的 基于 每 个 文本 图 
表示 的 图 分 类 领域 ， 过 平滑 现象 体现 在 以 文本 图 为 单位 的 文 
本 表示 中 ， 这 种 过 平滑 现象 在 浅 层 网 络 就 已 出 现 ， 随 着 
网 络 层 数 的 堆 合 ， 出 现 过 平滑 现象 的 文本 逐渐 增多 ， 过 平滑 


N 


P 


数据 集 内 部 分 样本 出 现 过 平滑 现象 , HEA EC 


岗 过 平滑 现象 的 文本 越 来 越 多 ， 影 响 了 模型 的 分 类 性 能 。 


为 了 验证 上 述 假设 ,借助 构造 的 8 个 模型 ， 分 析 在 MR 
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综 上 所 述 ， 以 P- 模 型 为 基准 ， 本 文 关注 方向 的 过 平滑 现象 
以 文本 图 为 单位 ， 在 浅 层 网 络 就 已 出 现 ， 且 过 平滑 文本 数 随 着 
网 络 堆 芭 而 逐渐 增加 ， 损 害 了 模型 性 能 ;， RWACD 和 ARS 均 能 
减少 过 平滑 样本 数 ， 抑 制 过 平滑 现象 ， 提 升 模型 分 类 性 能 。 
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图 6 样本 数 随 层 数 的 变化 
Fig.6 Variation of the number of samples with the number of layers 


4 ARA 


本 文 提 出 了 适用 于 多 个 文本 图 表示 的 平滑 度 衡量 指标 加 


权 平 均 余弦 距离 WACD， 提 出 了 抑制 过 度 平滑 的 正则 项 
RWACD。 提 出 了 注意 力 和 残 差 的 网 络 结构 ARS， 弥 补 由 于 
文本 图 拓扑 差异 引起 的 图 表示 学 习 带 来 的 文本 信息 的 损失 ， 


DS 


结合 图 2 和 图 6 中 P- 模 型 的 实验 结果 看 出 ，ACD 小 于 


现象 愈加 明显 ， 但 是 模型 性 能 在 2-3 层 时 才 开始 出 现下 降 。 


从 RW- 模 型 、 ARS- 模 型 的 曲线 看 出 , RWACD 和 ARS 均 能 
b 现 过 平滑 的 文本 数 ， 抑 制 过 平滑 现象 ， 提 升 模型 性 能 。 
RA- 模 型 的 结果 均 取 得 最 佳 , 说 明 RWACD 和 ARS 同时 


减少 了 出 现 过 平滑 的 样本 数 ， 抑 制 了 过 度 平滑 现象 ， 提 升 了 


模型 分 类 性 能 。 


同时 抑制 过 度 平滑 现象 。 提 出 了 基于 RWACD 和 ARS 的 图 
卷 积 神经 网 络 文本 分 类 算法 RA-GCN。 在 6 个 数据 集 上 证 明 
了 RA-GCN 的 性 能 ， 并 且 通 过 多 个 对 比 实验 验证 了 RWACD 
和 ARS 的 作用 。 

参考 文献 : 


[1] Li Qian, Peng Hao, Li Jianxin, et al. A survey on text classification: from 


shallow to deep learning [J/OL]. ACM Trans on Interactive Intelligent 
Systems, 2021, 37 (4) . (2021-04) [2021-12-11]. https://arxiv. 
org/pdf/2008. 00364. pdf. 

D] Kowsari K, Jafari M K, Heidarysafa M, et al. Text classification 
algorithms: a survey [J]. Information, 2019, 10 (4): 150. 

[3] Chiu B, Sahu S K, Sengupta N, et al. Attending to inter-sentential 
features in neural text classification [C]// Proc of the 43rd International 


ACM SIGIR Conference on Research and Development in Information 


Retrieval. New York: ACM, 2020: 1685-1688. 

[4] 何 力 , ER, AAA, E. 基于 深度 学 习 的 文本 分 类 技术 研究 进展 
[J]. 计算 机 工程 , 2021, 47 (2): 1-11. (He Li, Zheng Zaoxian, Xiang 
Fengtao, et al. Research progress of text classification technology based 
on deep learning [J]. Computer Engineering, 2021, 47 (2): 1-11.) 

[5] Yao Liang, Mao Chengsheng, Luo Yuan. Graph convolutional networks 
for text classification [C]// The 33rd AAAI Conference on Artificial 
Intelligence. Palo Alto: AAAI Press, 2019, 33 (1): 7370-7377. 

[6] Kipf T N, Welling M. Semi-supervised classification with graph 
convolutional networks [C/OL]/ The 5th International Conference on 
Learning Representations. 2017. (2017-02) [2021-12-11]. https://arxiv. 
org/pdf/1609. 02907. pdf. 

[7] Wu, F, Zhang Tianyi, Souza A, et al. Simplifying graph convolutional 
networks [C]// Proc of the 36th International Conference on Machine 
Learning. [S. I. ] : PMLR, 2019: 6861-6871. 

[8] Huang Lianzhe, Ma Dehong, Li Sujian, et al. Text level graph neural 
network for text classification [C]// Proc of Conference on Empirical 
Methods in Natural Language Processing and the 9th International Joint 
Conference on Natural Language Processing. Stroudsburg: ACL, 2019: 
3442-3448. 

[9] Zhang Yufeng, Yu Xueli, Cui Zeyu, et al. Every document owns its 
structure: inductive text classification via graph neural networks [C]// 
Proc of the 58th Annual Meeting of the Association for Computational 
Linguistics. Stroudsburg: ACL, 2020: 334-339. 

[10] Li Yujia, Tarlow D, Brockschmidt M, et al. Gated graph sequence neural 
networks [C/OL]/ The 4th International Conference on Learning 
Representations. 2016. (2016) [2021-12-11]. https://arxiv. org/pdf/1511. 
05493. pdf. 

[L1] CELA, IM, KAX, F. 基于 语义 依存 分 析 的 图 网 络 文本 分 类 模 
型 [J]. 计算 机 应 用 研究 , 2020, 37 (12): 3594-3598. (Fan Guofeng, Liu 
Gui, Yao Shaowen, et al. Text clasification model with graph network 
based on semantic dependency parsing [J]. Application Research of 
Computers, 2020, 37 (12): 3594-3598.) 

[12] Li Qimai, Han Zhichao, Wu Xiaoming. Deeper insights into graph 
convolutional networks for semi-supervised learning [C]// Proc of the 
32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 
2018: 3538-3545. 

[13] Cai Chen, Wang Yusu. A note on over-smoothing for graph neural 
networks |[EB/OL]. (2020-06-23) [2021-12-11]. 
org/pdf/2006. 13318. pdf. 


https://arxiv. 


[14] Chen Deli, Lin Yankai, Li Wei, et al. Measuring and relieving the over- 


苏 凡 军 ， 等 : RA-GCN: 抑制 过 平滑 现象 的 文本 分 类 算法 


smoothing problem for graph neural networks from the topological view 
[C]// The 34th AAAI Conference on Artificial Intelligence. Palo Alto: 
AAAI Press, 2020: 3438-3445. 

[15] Wang Guangtao, Ying R, Huang Jing, et al. Multi-hop attention graph 
neural networks [C]// Proc of the 30th International Joint Conference on 
Artificial Intelligence. [S. I. ] : ijcai. org, 2021: 3089-3096. 

[16] Yang Tianmeng, Wang Yujing, Yue Zhihan, et a/. Graph pointer neural 
networks [EB/OL]. (2021) [2022-01-05]. https://arxiv. org/pdf/2110. 
00973. pdf. 

[17] Vinyals O, Fortunato M, Jaitly N. Pointer networks [C]// Advances in 
Neural Information Processing Systems 28: Annual Conference on 
Neural Information Processing Systems. 2015: 2692-2700. 

[18] Li Guohao, Muller M, Thabet A, et al. DeepGCNs: Can GCNs go as deep 
as CNNs? [C]// Proc of the IEEE/CVF International Conference on 
Computer Vision. Piscataway, NJ: IEEE Press, 2019: 9266-9275. 

[19] Rong Yu, Huang Wenbing, Xu Tingyang, et al. DropEdge: towards deep 
graph convolutional networks on node classification [C/OL]/ The 8th 
International Conference on Learning Representations. 2020. (2020-05- 
12) [2022-01-05]. https://arxiv. org/pdf/1907. 10903. pdf. 

[20] Xu Liang, Hu Hai, Zhang Xuanwei, et al. CLUE: A Chinese language 
understanding evaluation benchmark [C]// Proc of the 28th International 
Conference on Computational Linguistics. [S. I. ] : International 
Committee on Computational Linguistics, 2020: 4762-4772. 

[21] Kim Y. Convolutional neural networks for sentence classification [C]// 
Proc of Conference on Empirical Methods in Natural Language 
Processing. Stroudsburg: ACL, 2014: 1746-1751. 

[22] Liu Pengfei, Qiu Xipeng, Huang Xuanjing. Recurrent neural network for 
text classification with multi-task learning [C]// Proc of the 25th 
International Joint Conference on Artificial Intelligence. [S. I. ] : 
IJCAI/AAAI Press, 2016: 2873-2879. 

[23] Pennington J, Socher R, Manning C D. Glove: Global vectors for word 
representation [C]// Proc of Conference on Empirical Methods in Natural 
Language Processing. Stroudsburg: ACL, 2014: 1532-1543. 

[24] Li Shen, Zhao Zhe, Hu Renfen, et al. Analogical reasoning on Chinese 
morphological and semantic relations [C]// Proc of the 56th Annual 
Meeting of the Association for Computational Linguistics. Stroudsburg: 
ACL, 2018: 138-143. 

[25] Kingma D P, Ba J L. Adam: A method for stochastic optimization [C/OL ]/ 
The 3rd International Conference on Learning Representations. 2015. 


(2015) [2022-01-05]. https://arxiv. org/pdf/1412. 6980. pdf. 


